Statistik och dataanalys I

F5: Standardiserade variabler och normalfördelningen

Valentin Zulj

Vad har vi gjort hittills

  • Hittills har vi jämfört olika numeriska fördelningar

  • Vi har ställt frågor i stil med

    • Hur kan vi visa skillnader mellan olika numeriska fördelningar med låddiagram (boxplot)?
    • Hur bedömer vi om en skillnad mellan grupper är slumpmässig?
    • Hur kan vi transformera värden så att skillader syns tydligare i ett diagram?

Vad vi ska göra nu

  • I dagens föreläsning ska vi fortsätta gräva i jämförelser
  • Vi kommer fråga oss om det går att jämföra värden som är mätta på helt olika skalor/enheter
    • Går det t.ex. att göra en meningsfull jämförelse mellan vikten på en båt och längden på en lastbil?
    • Ja, faktiskt! Men för det behöver vi en ny typ av måttstock
  • Den nya måttstocken kallas för Z-värde, och är ett resultat av standardisering
  • Z-värden och standardisering kommer leda oss till normalfördelningen, som är central för statistiken

Z-värden och standardisering

z-värde - ett mått med standardavvikelser som enhet

  • Z-värdet (z-score) mäter avvikelsen från genomsnittet för en variabel – mätt i antalet standardavvikelser

  • Exempel

    • Kursboken (sid 152) jämför en länghoppare som hoppar 6.58 meter med en löpare som springer 200 meter på 23.26 sekunder i OS 2016
    • Vi kan inte jämföra en längd i meter med en tid i sekunder
    • Men: vi kan jämföra hur många standardavvikelser respektive prestation avviker från den genomsnittliga deltagaren i respektive tävling
    • Vi tar hänsyn till

Z-värde

  • Exempel, fortsättning
    • Vi kan räkna ut att vinnaren i längdhopp hoppade 1.66 standardavvikelser längre än det genomsnittliga hoppet i tävlingen
    • Vi kan också räkna ut att vinnaren i 200 meter sprang på en tid som var 2.02 standardavvikelser mindre än den genomsnittliga tiden i tävlingen
    • Slutsats: Vinnaren i 200 meters gjorde en mer imponerande insats, åtminstone i relation till övriga insatser som gjordes i de båda grenarna
  • Vi jämför fortfarande varje insats med genomsnittet i sin gren, men eftersom vi byter skala kan vi jämföra mellan grenar också!

Standardavvikelser

  • Vi pratade om standardavvikelser på F2 – här kommer en kort repetition

  • För en numerisk variabel \(y\) är standardavvikelsen \[ s_y = \sqrt{s_y^2} \]

  • \(s_y^2\) står för variansen, som vi räknar ut med \[ s_y^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]

  • Om vi hellre vill räkna ut standardavvikelsen i ett enda steg blir formeln \[ s_y = \sqrt{\cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1}} \]

Att räkna ut z-värdet

  • Vi konstaterade att vinnaren i längdhopp hoppade 1.66 standardavvikelse längre än det genomsnittliga hoppet i tävlingen
  • Med andra ord hade det vinnarens bästa hopp ett z-värde på 1.66 – men hur räknar vi ut det?
  • Om värdet på en observation betecknas \(y\), och om \(\bar y\) och \(s\) betecknar genomsnittet och standardavvikelsen för variabeln \(y\), så är z-värdet \[ z = \cfrac{y - \bar{y}}{s} \]

  • För att räkna på z-värden behöver vi en numerisk fördelning (hur skulle vi räkna ut t.ex. standardavvikelse för en kategorisk fördelning?)

Att räkna ut z-värdet

  • I vårt exempel var den genomsnittliga hopplängden i tävlingen \(\bar{y} = 6.17\) meter, och standardavvikelsen var \(s = 0.247\) meter
  • Z-värdet för ett hopp på \(y = 6.58\) meter blir så \[ z = \cfrac{y - \bar{y}}{s} = \cfrac{6.58 - 6.17}{0.247} = 1.66 \]
  • Därför säger vi att vinnaren hoppade 1.66 standardavvikelser högre än genomsnittshoppet i tävlingen

Att räkna ut z-värdet

  • Vi gör samma beräkning för vinnaren i 200-meterslöpning för att bekräfta att z-värdet för den bästa löptiden är 2.02

  • Den genomsnittliga tiden var \(\bar{y} = 24.58\) sekunder och standardavvikelsen var \(s=0.654\) sekunder

  • Därför blir z-värdet för segertiden på 23.26 sekunder blir därför \[ z = \cfrac{y - \bar{y}}{s} = \cfrac{23.26 - 24.58}{0.654} = -2.02 \]

  • Notera att z-värdet vi räknade ut är negativt, vilket betyder att observationen är mindre än genomsnittet

  • När de handlar om tiden för ett lopp är 2.02 standardavvikelser mindre samma sak som 2.02 standardavvikelser bättre (då man vill springa snabbt)

Att översätta mellan skalor

  • Att översätta från en annan enhet (t.ex kg eller meter) till enheten standardavvikelser är som att översätta mellan vilka två enheter som helst

  • En mile är t.ex. \(\approx\) 1.6 kilometer – om avståndet mellan två punkter är 12 km, så är avståndet i miles \(12/1.6 = 7.5\)

  • På samma sätt: om avståndet mellan \(y\) och \(\bar{y}\) är 5 km, och varje standardavvikelse är 2 km, så blir avståndet i standardavvikelser \(5 / 2 = 2.5\)
  • En viktig skillnad är att en mile alltid är ungefär 1.6 km, men storleken på en standardavvikelse varierar från fall till fall

Att räkna ut originalvärdet med hjälp av z-värdet

  • Vi har sett hur vi kan räkna ut z-värdet för en observation, alltså det antalet standardavvikelser som observationen skiljer sig från genomsnittet

  • Vi kan också vilja besvara frågor som: hur långt måste du hoppa i längd för att hoppa två standardavvikelser över genomsnittet?

  • Det kan vi se genom att skriva om vår formel: \[ z = \cfrac{y - \bar{y}}{s} \implies y = \bar{y} + zs \]

  • Vi antar att \(\bar{y} = 6.17\) meter, \(s=0.247\) meter för längdhopp

  • Du måste då hoppa \(6.17 + 2 \cdot 0.247 = 6.664\) meter för att ditt hopp ska vara två standardavvikelser över genomsnittet

  • Fråga: Hur långt måste du hoppa för att z-värdet ska vara större än 0?

Standardiserade variabler

  • Vi har sett att z-värdet räknas ut med formeln \[ z = \cfrac{y - \bar{y}}{s} \]
  • Om vi har en variabel \(y\) med medelvärde \(\bar{y}\) och standardavvikelse \(s\), kan vi visa att
    • den nya variabeln \(y - \bar{y}\) har då medelvärde \(0\), och variabelns standardavvikelse är fortfarande \(s\)
    • Den nya ariabeln \(z = (y - \bar{y})/s\) har medelvärde \(0\) och standardavvikelse \(1\)
  • Eftersom \(z\) alltid har medelvärde \(0\) och standardavvikelse \(1\), oavsett vilka värden vi har på variabeln \(y\), säger vi att \(z\) är en standardiserad variabel

z är en standardiserad variabel

  • Med hjäp av R kan vi visa att föregående slide stämmer
  • Vi läser in ett dataset som innehåller 32 bilmodeller, den första bilmodellen är exempelvis en Mazda RX4
  • För varje modell skiver vi ut variabeln mpg (miles per gallon)
suppressWarnings(library(mosaic)) # dödar onödig output
data(mtcars)
y <- mtcars$mpg
y
 [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8
[12] 16.4 17.3 15.2 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5
[23] 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7 15.0 21.4

z är en standardiserad variabel

  • Vi kan titta på några mått som sammanfattar vår variabel
favstats(y) |> round(3) # avrundar till 3 decimaler
  min     Q1 median   Q3  max   mean    sd  n missing
 10.4 15.425   19.2 22.8 33.9 20.091 6.027 32       0
  • Vi ser att medelvärdet är ca 20 mpg, och standardavvikelsen ungefär 6 mpg

z är en standardiserad variabel

  • För varje observation av \(y\) subtraherar vi medelvärdet och delar med standardavvikelsen

  • Vi skriver ut våra värden för den nya variabeln z

  • Tolka: Vad säger dessa värden exempelvis om modellen Mazda RX4, som är den första bilen i vårt dataset?

z <- (y - mean(y)) / sd(y)
z |> round(3)
 [1]  0.151  0.151  0.450  0.217 -0.231 -0.330 -0.961  0.715
 [9]  0.450 -0.148 -0.380 -0.612 -0.463 -0.811 -1.608 -1.608
[17] -0.894  2.042  1.711  2.291  0.234 -0.762 -0.811 -1.127
[25] -0.148  1.196  0.980  1.711 -0.712 -0.065 -0.845  0.217

z är en standardiserad variabel

  • Vi tittar på några mått som sammanfattar vår standardiserade variabel \(z\).
favstats(z) |> round(3) #Vi avrundar till 3 decimaler
    min     Q1 median   Q3   max mean sd  n missing
 -1.608 -0.774 -0.148 0.45 2.291    0  1 32       0
  • Vi har nu medelvärdet 0 och standardavvikelsen 1
  • Det överensstämmer med vad vi kunde förvänta oss utifrån teorin

z är en standardiserad variabel

  • Hittils har vi lärt oss att räkna ut z-värdet

  • Vi har också lärt oss att göra det omvända, dvs att räkna ut hur stort värdet på en variabel måste vara för att motsvara ett visst z-värde

  • Vi har sett att om vi omvandlar alla värden i en variabel \(y\) till z-värden så får vi en ny variabel med medelvärdet 0 och standardavvikelsen 1

  • Däremot har vi inte sagt så mycket om betydelsen av z-värdet
  • Vi vet att en längdhoppare som gör ett hopp vars z-värde är större än 0 har hen lyckats bättre än genomsnittet,
  • Men hur exceptionellt är det att göra ett hopp som är 2.02 standardavvikelser över genomsnittet?
  • För att svara på den frågan ska vi ta hjälp av normalfördelningen

Normalfördelningen

Normalfördelningen

  • Under F2 tittade vi på histogram, och sa att formen på ett histogram beskriver hur värden på en variabel fördelar sig
  • Normalfördelningen beskriver en speciell typ av fördelning
  • Figuren till vänster är en normalfördelningskurva, och figuren till höger är ett histogram som visar en normalfördelad variabel
  • Histogrammet har ungefär samma form som normalfördelningskurvan

Normalfördelningen

  • Formen på en normalfördelningskurva påminner om en kyrkklocka, så formen och kallas ibland också för just bell curve
  • Fördelningen kan ibland kallas för en Gaussisk fördelning, men i den här kursen kommer vi konsekvent att använda termen normalfördelning

Normalfördelningen

  • Om en variabel är normalfördelad kan vi med hjälp av detta räkna ut hur stor andel av observationerna som ligger inom ett visst intervall
  • Arean under normalfördelningskurvan representerar 100% av våra observationer
  • Skalan på x-axeln i figuren visar antalet standardavvikelser från medelvärdet (z-värdet)

Normalfördelningen

  • I normalfördelningen ligger
    • 68% av alla observationer inom en standardavvikelse från medelvärdet
    • 95% av alla observationer inom 2 standardavvikelser från medelvärdet
    • 99.7% av alla observationer inom 3 standardavvikelser från medelvärdet

Räkneexempel 1

  • Låt oss använda det vi vet om normalfördelningen för att göra beräkningar!
  • Anta att hopplängderna i en längshoppstävling är normalfördelade
    • Hur stor andel av hoppen är antingen minst två standardavvikelser större eller minst två standardavvikelser mindre än genomsnittet?

Räkneexempel 1

  • Hur stor andel av hoppen är antingen minst två standardavvikelser större eller minst två standardavvikelser mindre än genomsnittet?

  • Från figuren: om hopplängderna är normalfördelade så är \(95\%\) av hoppen i intervallet mellan \(-2\) och \(2\) standardavvikelser från genomsnittet

  • Andelen hopp utanför detta intervall är alltså \(100\% - 95\% = 5\%\)

Räkneexempel 2

  • Hur stor andel av hoppen är minst en standardavvikelse längre än snittet?
  • För att lösa denna uppgift behöver vi introducera en ny egenskap hos normalfördelningen, nämligen att den är symmetrisk
  • Vi ser att normalfördelningskurvan speglar sig runt värdet 0 på x-axeln, det är alltså lika många observationer till vänster om 0 som till höger om 0
  • Vi har så att 50% av observationerna är mindre än 0, och 50% är större än 0

Räkneexempel 2

  • Med hjälp av fördelningens symmetri kan vi komma fram till att
    • Av hoppen som ligger mellan -1 och 1, ligger hälften till höger om 0 (alltså \(68\%/2=34\%\) av alla hopp)
    • \(50\%\) av alla hopp ligger till höger om noll, och \(34\%\) ligger mellan 0 och 1
    • Vi får därför att andelen hopp till höger om 1 är \(50\% - 34\% = 16\%\)
  • Andelen hopp som är minst en standardavvikelse längre än snittet är så \(16\%\)

Räkneexempel 3

  • Vi antar att genomsnittshoppet är \(\bar{y}=4.2\) meter, och att standardavvikelsen är \(s=0.4\) meter
  • Hur långt måste ett hopp minst vara i meter för att vara bland de \(16 \%\) längsta hoppen?
  • Det här är ett mer intressant exemepel än de tidigare: frågan är ställd i vanliga enheter (alltså meter) och inte standardavvikelser
  • Detta är intressant då vi vanligtvis tänker i vanliga enheter, men vi har bara pratat om normalfördelningen i enheten standardavvikelser
  • Vad kan vi göra för att lösa detta problem?
  • Vi kan översätta mellan skalor!

Räkneexempel 3

  • Hur långt måste ett hopp minst vara i meter för att vara bland de \(16 \%\) längsta hoppen, när \(\bar{y}=4.2\) meter, och \(s=0.4\) meter?
  • För att vara bland de \(16 \%\) längsta hoppen måste hoppet vara minst \(1\) standardavvikelse längre än genomsnittet (från Räkneexempel 2)
  • Vi vill översätta gränsen till meter, och använder formeln från innan \[ z = \cfrac{y - \bar{y}}{s} \implies y = \bar{y} + zs \]
  • Hoppet måste alltså vara \(\bar{y} + 1 \cdot s\) meter för att vara en standardavvikelse från snittet
  • Vi stoppar in våra siffror, och får gränsen \(\bar{y} + 1 \cdot s = 4.2 + 1 \cdot 0.4 = 4.6\) meter

Percentiler

  • I F2 pratade vi lite kort om percentiler
  • Om vi har en numerisk variabel så är en percentil ett värde som är större än en viss specificerad procentandel av observationerna
  • Exempel:
    • Den 75:e percentilen är ett värde som är större än ungefär 75 procent av observationerna och mindre än ungefär 25 procent av observationerna
    • Den 75:e percentilen är alltså samma sak som den tredje kvartilen Q3

Exempel med percentil i Normalfördelningen

  • Vi räknade ut att i en viss längshoppstävling måste ett hopp vara minst 4.6 meter för att ligga precis en standardavvikelse över genomsnittet
  • Från bilden: ett hopp som är precis en standardavvikelse över snittet är även
    • Längre än ungefär 84% av hoppen i tävlingen
    • Lortare än ungefär 16% av hoppen
  • Ett hopp på 4.6 meter ligger alltså vid den 84:e percentilen, förutsatt att hoppen är normalfördelade

Percentiler i normalfördelningen

  • Antag att vi vill veta hur långt ett hopp måste vara för att vara topp 10% i tävlingen, dvs ligga över den 90:e percentilen
  • Bilden visar att hoppet
    • Måste vara mer än 1 standardavvikelse över snittet (84:e percentilen)
    • Inte behöver vara så långt som 2 standardavvikelser över snittet (97.5:e percentilen)
  • För ett mer exakt svar behöver vi en normalfördelningstabell

Normalfördelningstabeller

  • Normalfördelningstabellen, som vi här ser en liten del av, kan användas för att översätta z-värden till proportioner, eller proportioner till z-värden
  • Ett z-värde får du genom att kombinera talen i den vänstra marginalen med talen i den övre marginalen
  • För varje z-värde anger tabellen en proportion som ligger till vänster om detta z-värde

Att läsa normalfördelningstabeller

  • Vi tittar på den markerade cellen i tabellen:
    • Den står på raden med 0.3 i vänstermarginalen
    • Den finns i kolumnen där med 0.02 i den övre marginalen
  • 0.3 och 0.02 sätts samman till 0.32, och talet i den övre marginalen anger den andra decimalen i det z-värde som den markerade cellen avser

Att läsa normalfördelningstabeller

  • Det gulmarkerade talet är 0.6255, och betyder att z-värdet 0.32 har 62.55% av alla observationer till vänster om sig i normalfördelningen
  • Vi kan uttrycka det som att z-värdet 0.32 ligger vid den 62.55:e percentilen

Normalfördelningstabeller – koppling till exempel

  • Vi behåller kopplingen till vår längdhoppstävling, och tolkar tabellvärdet i det sammanhanget
  • Om någon gör ett hopp som är 0.32 standardavvikelser längre än snittet, så är det hoppet längre än 62.55% av alla hopp i tävlingen

Normalfördelningstabeller

  • Vi vill sällan åt z-värdet sig, utan det är bara ett led i våra beräkningar
  • X-värdet låter oss översätta mellan originalenheten på vår variabel (meter, kg, kronor, etc) och en proportion i procent, vilket kan vara hjälpsamt
  • Om vi har ett värde i originalskalan och vill veta andelen observationer som är mindre eller större än detta värde: \[ \text{y-värde} \implies \text{z-värde} \implies \text{andel i procent} \]
  • Om vi vill veta vad värdet i originalskalan behöver vara för att en bestämd andel av observationerna ska vara mindre/större: \[ \text{andel i procent} \implies \text{z-värde} \implies \text{y-värde} \]

  • Låt oss göra en uträkning av varje slag!

Normalfördelningstabeller – räkneexempel 1

  • Åter till vår längdhoppstävling, där genomsnittshoppet är \(\bar{y}=4.2\) meter, och standardavvikelsen är \(s=0.4\) meter
  • Vi gör ett hopp om \(y=4.5\) meter, och vill nu veta andelen hopp som är kortare respektive längre än vårat
  • Vi har ett värde på originalskalan, och gör våra uträkningar i enligt \[ \text{y-värde} \implies \text{z-värde} \implies \text{andel i procent} \]
  • Vi beräknar z-värdet med formeln \[ z = \cfrac{y - \bar{y}}{s} = \cfrac{4.5 - 4.2}{0.4}=0.75 \]
  • Vårt hopp var alltså 0.75 standardavvikelser längre än genomsnittshoppet

Normalfördelningstabeller – räkneexempel 1

  • Vi har räknat ut att vårt hopp var 0.75 standardavvikelser längre än genomsnittshoppet, alltså att z-värdet är alltså 0.75
  • För att se andelen hopp som har ett lägre z-värde än 0.75 använder vi normalfördelningstabellen
  • På raden med \(0.7\) i vänstermarginalen, och i kolumnen med \(0.05\) i övre marginalen, hittar vi \(0.7734\) (kontrollera gärna detta själv!)
  • Slutsats: Ungefär 77.34 procent av alla hopp i tävlingen är kortare än vårt hopp, vilket betyder att 22.66 procent av hoppen är längre
  • Vi kan, om vi vill, säga att ett hopp på 4.5 meter befinner sig ungefär vid den 77:e percentilen i förhållande till övriga hopp i tävlingen

Normalfördelningstabeller – räkneexempel 2

  • Vårt senaste hopp var inte bland de 10 procent längsta, men hur långt måste vi hoppa om vi har det målet? (fortfarande med \(\bar{y}=4.2\) m och \(s=0.4\) m)
  • Den här gången har vi en andel, och vill tillbaka till originalskalan, så vi räknar enligt \[ \text{andel i procent} \implies \text{z-värde} \implies \text{y-värde} \]
  • Vi vill hoppa så långt att minst 90 procent av hoppen i tävlingen är kortare än vårt hopp
  • Detta är samma sak som att vårt hopp måste ligga över den 90:e percentilen

Normalfördelningstabeller – räkneexempel 2

  • Nu letar vi efter andelen 0.9 i normalfördelningstabellen (exakt 0.9 finns inte i tabellen, men vi tar 0.8997 som är närmast)
  • Andelen 0.8997 finns på en rad med 1.2 i sidomarginalen, och i en kolumn med 0.08 i övre marginalen
  • Vi sätter ihop detta till ett z-värde om 1.28, och får att vårt hopp måste vara minst 1.28 standardavvikelser längre än genomsnittet för att vara topp 10%
  • Nu återstår bara att omvandla z-värdet till meter, med formeln \[ y = \bar{y} + zs = 4.2 + 1.28 \cdot 0.4 = 4.712 \]
  • Slutsats: Vi måste hoppa längre än 4.712 meter för att vårt hopp ska vara topp 10%

Normalfördelningstabeller i R

  • Funktionerna qnorm och pnorm är kopplade till normalfördelningstabeller
  • Vi använder pnorm() när vi har ett z-värde, och vill veta hur stor andel av observationerna i en normalfördelning som har ett lägre z-värde
  • I ett av våra ville vi veta hur stor andel av längdhoppen som hade ett mindre z-värde än 0.75, och tabellen gav oss då 77.34 procent
  • I R gör vi motsvarande beräkning på följande sätt
pnorm(0.75)
[1] 0.7733726

Normalfördelningstabeller i R

  • Funktionerna qnorm och pnorm är kopplade till normalfördelningstabeller
  • Vi använder qnorm() för att se vilket z-värde som är större än en bestämd andel av observationerna i en normalfördelning
  • Tidigare såg vi att 1.28 är det z-värde som är större än 90% av observationerna (och mindre än övriga 10%)
  • I R gör vi motsvarande beräkning på följande sätt (notera att vi i R skriver 0.9 istället för 90%)
qnorm(0.9)
[1] 1.281552

Varför just normalfördelningen?

  • En numerisk variabel vara fördelad på många olika sätt. Varför är vi så intresserade av just variabler som är normalfördelade?
  • Den franske matematikern Abraham de Moivre visade på 1700-talet att många fördelningar i verkligheten faktiskt ligger nära normalfördelningen (som dock inte hade fått sitt namn på den tiden)
  • Dessutom är det så att medelvärden ofta fördelar sig enligt en normalfördelning
  • Det förhållandet kallas centrala gränsvärdessatsen (the Central Limit Theorem) och kommer att vara viktigt i del 2 av kursen

Undersök om en variabel är normalfördelad

  • Normalfördelningen är en förutsättning för beräkningarna i våra räkneexempel, men vi kan inte utan argument utgå från att en numerisk variabel är normalfördelad

  • När vi använder normalfördelningen för våra beräkningar måste vi alltså först undersöka om vår variabel verkligen är normalfördelad

  • Vi ska nu gå igenom några sätt att visa om en variabel är normalfördelad, eller åtminstone att den följer en fördelning som liknar en normalfördelning

Undersök om en variabel är normalfördelad

  • Vi kan säga att en fördelning är nästan normalfördelad (nearly normal) om den är symmetrisk, bara har en topp (unimodal) och inte har tydliga outliers
  • Fördelningen på bilden får sägas leva upp till villkoren för att vara nästan normalfördelad, men det är till viss del en subjektiv bedömning

Undersök om en variabel är normalfördelad

  • Vi kan också använda en normalfördelningsplot (normal probability plot), om variabeln är normalfördelad ligger punkterna i plotten längs en rät linje
  • Exempel: Bensinförbrukning i mpg (miles per gallon) för en Nissan Maxima insamlat under 8 år av en av kursbokens författare
  • Linjen är någorlunda rak – två observationer till vänster är mindre än vad de borde vara, men det är ändå rimligt att se variabeln som normalfördelad

Undersök om en variabel är normalfördelad

  • Kom ihåg!
    • Även om en variabel är ungefär normalfördelad så följer den förmodligen inte exakt en normalfördelning
    • Var medveten om att resultaten av beräkningarna därför inte kan förväntas vara så exakta, men förhoppningsvis ge en bra approximation

Undersök om en variabel är normalfördelad

  • Här är en normalfördelningsplot och ett histogram ur De Veaux et al. (2021)
  • Linjen är inte rak, och dessutom ser vi i histogrammet att fördelningen inte är symmetrisk, utan skev åt höger
  • Det vore orimligt att betrakta denna variabel som normalfördelad, och om vi räknade med den som normalfördelad skulle resultaten bli missvisande

Undersök om en variabel är normalfördelad

  • Det kan gå att göra en variabel som denna normalfördelad med hjälp av en transformation
  • Vi såg tidigare att transformationer kan användas för att underlätta jämförelser mellan variabler med låddiagram
  • Vi kan också transformera för att göra en variabel normalfördelad

Undersök om en variabel är normalfördelad

  • I R kan vi använda qqnorm och qqline tillsammans för att göra en normalfördelningsplot, med en linje som visar hur punkterna bör ligga
data(mtcars)
qqnorm(mtcars$mpg)
qqline(mtcars$mpg)

Credits

Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj